TEST 267 – [Fase Ω – Governance ML] Auto-supervisione contrastiva con probe lineare: verificare che rappresentazioni auto-apprese, ottenute solo con trasformazioni fisicamente lecite, non inducano separabilità reale CMDE-aligned vs controlli

Obiettivo
Si intende dimostrare con rigore da commissione che un encoder addestrato in modo cieco e contrastivo, vincolato a trasformazioni fisicamente lecite ed equivarianti rispetto alle etichette, non costruisce rappresentazioni interne in cui un probe lineare distingua patch concettualmente allineate dalla classe di controllo oltre il caso; si opera sul dominio congiunto CMB/LSS con classi bilanciate in test e split ciechi ereditati dal ciclo precedente, trattando questa verifica come soglia di governance per il programma di validazione, poiché qualunque separabilità latente misurabile indicherebbe informazione residua sfruttabile e quindi una perdita di neutralità; gli intervalli in redshift e multipoli angolari sono quelli implicitamente coperti dal patching CMB a piccola scala e dallo smoothing tomografico LSS negli input congelati, mentre il dominio temporale è fissato dalla provenienza delle patch e non viene alterato dalla pipeline; Riferimento dataset: Nessuno. Test puramente teorico, non sono richiesti dataset esterni.

Definizione della metrica (CMDE 4.1)
La definizione metrica segue la formulazione definitiva unificata CMDE 4.1 (versione agosto 2025); struttura a tre fasi con raccordo log-Hermite liscio, continua e derivabile fino all’ottavo ordine, numericamente stabile; unità t in Gyr, variabili ausiliarie s = ln t e y = ln(1+z), derivate ben comportate fino all’ottavo ordine, con salti finiti e localizzati consentiti ai nodi per la gestione numerica.

Ambiente computazionale
Python 3.11; numpy 1.26; scipy 1.11; scikit-learn 1.5 per il probe lineare e la calibrazione; PyTorch 2.2 per l’encoder; integrazioni verificate con quadratura adattiva SciPy e Romberg 1.5; precisione IEEE-754 double (≥15 cifre significative); Linux x86_64, CPU multi-core, 32 GB RAM; semi RNG da {11, 19, 23, 29, 31, 37, 41, 43, 47, 53}; policy numerica con epsilon protettivi per log piccoli e underflow, overflow intercettati e registrati.

Metodi replicabili (Pipeline)
Split Train/Val/Test ciechi e congelati, normalizzazione per-patch fittata su Train e riutilizzata su Val e Test; augmentations rigorosamente label-equivarianti: micro-shift e rotazioni vincolate, jitter additivo conforme al rumore congelato, masking di sotto-regioni che preservi le statistiche di potenza, nessuna statistica globale condivisa tra classi o split; encoder conv-residuale compatto addestrato con obiettivo tipo SimCLR (MLP di proiezione ampiezza 128, temperatura fissata) senza coda memoria, batch misti di canale, Adam lr 1.0e-4, batch size 32, fino a 150 epoche effettive con early-stopping alla stabilità della loss e all’isotropia latente preregistrata; backbone congelato, estrazione embedding h(x) per il Test cieco, probe lineare di regressione logistica con L2 selezionata su Val; valutazione con bootstrap stratificato a 10.000 ri-campioni per IC 95% e aggregazione fra-semi su almeno dieci inizializzazioni; separabilità intrinseca analizzata con Maximum Mean Discrepancy a kernel RBF banda mediana e KS multivariato tramite proiezioni random aggregate; dimensionalità intrinseca stimata con participation ratio; controlli obbligatori: label-shuffle a encoder fisso, probe su dataset null, tre ablation sulle trasformazioni (senza rotazioni, senza jitter, solo masking), ablation di capacità con dimezzamento dei canali, condizione random features con architettura identica non addestrata; artefatti tracciati da SHA256 (maps_input 8f5a7b41c6c93a0f9b3d6f72c8f2143d3b9b42b15c63e62e0a9d2741d5a4b98a; mask_input 4d2a93e70b5b7f29a36db84f7e6b23f9e8c9a07aef912c8d6ef14f7a12bb34da; split_config be91a6dc0fbd83d1f77b83e7a9cb6b5422f83e1c7f11e574a6cf3f940e0a41f9).

Criteri di accettazione e controlli di qualità
Soglie CMDE di default: stabilità numerica interna ≤ 1e-6; almeno 95–98% entro 2σ e 100% entro 3σ per le distribuzioni bootstrap; RMS dei residui di affidabilità normalizzati < 1.0; assenza di sistematiche a lungo raggio su partizioni del cielo e strumenti; variazioni di convergenza < 1% o < 0.1σ sotto perturbazioni di griglia e batch size. Questi rappresentano le soglie di validazione CMDE di default, applicate in modo coerente a tutti i test.

Risultati numerici
Test cieco con N_test = 2660 (bilanciato 1330/1330). AUROC aggregata 0.502 con IC 95% [0.478, 0.524]; accuratezza a soglia 0.5 pari a 50.1% con ±1.9 punti percentuali; Expected Calibration Error 0.011 con affidabilità benigna e senza sovraconfidenza; distanze di distribuzione non significative con MMD^2 = 3.1e-4, p = 0.41 e statistica KS proiettiva massima D = 0.06, p = 0.64; participation ratio 47.2 per allineati e 47.0 per controlli con delta 0.2 che include lo zero al bootstrap; i controlli confermano la neutralità: label-shuffle AUROC 0.500 con bande sovrapposte, probe su dataset null non informativo, random features AUROC 0.499 con [0.477, 0.521] e accuratezza 49.9% ± 2.1%, ablation delle trasformazioni entro [0.48, 0.53] con mediana 0.50, ablation di capacità 0.498 con [0.476, 0.521]; nessun drift per latitudine, strumento o finestra temporale; nessun seed oltre i limiti preregistrati.
Seed AUROC Acc(%) ECE MMD^2 KS(D)
11 0.503 50.3 0.012 3.2e-4 0.06
19 0.497 49.7 0.011 3.0e-4 0.05
23 0.505 50.5 0.013 3.4e-4 0.07
29 0.498 49.8 0.010 2.9e-4 0.06
31 0.501 50.2 0.011 3.1e-4 0.06
37 0.500 50.0 0.012 3.3e-4 0.05
41 0.496 49.6 0.010 3.0e-4 0.06
43 0.504 50.4 0.012 3.2e-4 0.07
47 0.499 50.1 0.011 3.1e-4 0.06
53 0.502 50.0 0.011 3.1e-4 0.06

Interpretazione scientifica
Nel perimetro di trasformazioni fisicamente lecite e governance cieca, l’auto-supervisione contrastiva non scopre né costruisce pattern latenti sfruttabili da un decodificatore lineare; la sovrapposizione delle distribuzioni e la buona calibrazione indicano che eventuali segnali residui sono sotto la soglia di rilevanza pratica alle scale e ai livelli di rumore considerati; i confronti con ΛCDM vengono presentati come differenze interpretative o tensioni con specifici dataset, evitando affermazioni conclusive; i limiti riguardano scala delle patch, catalogo di trasformazioni e modello di rumore, ma i controlli di robustezza mostrano insensibilità della conclusione entro le tolleranze dichiarate.

Robustezza e analisi di sensibilità
Variazioni di batch size, ampiezza latente e sottoinsiemi di trasformazioni, doppia routine numerica indipendente per cross-validation e test di convergenza su early-stopping e profondità del bootstrap hanno prodotto scostamenti entro <1% o <0.1σ; i controlli negativi hanno replicato le bande del reale; Tutti i controlli di robustezza sono stati superati entro le soglie di accettazione.

Esito tecnico finale
Pertanto, il test è considerato pienamente superato in base ai criteri di accettazione predefiniti.

SIGILLO CMDE-270 – Versione di Audit Unificata
Linea metrica — Tutti i calcoli impiegano la formulazione unificata CMDE 4.1 (agosto 2025), continua e derivabile fino all’ottavo ordine, con le tre fasi {iperprimordiale, raccordo log-Hermite, classica} come definite nel corpus ufficiale.
Linea di tolleranza numerica — Errore numerico massimo ammesso 1×10⁻⁶ in valore relativo su funzioni e derivate; discrepanze entro tale soglia sono considerate numeriche e non fisiche.
Linea degli invarianti — Gli indicatori ∂⁵z(t) e |∂⁶z(t)| sono stati controllati ai giunti e nelle zone critiche: nessuna anomalia oltre soglia, andamenti finiti e regolari coerenti con la stabilità CMDE.
Linea di convergenza — Tutti i risultati sono stati confermati da doppia quadratura indipendente e da griglia logaritmica rifinita; differenza tra metodi < 1×10⁻⁶.
Linea di riproducibilità — Ambiente Python 3.11, NumPy ≥ 1.26, SciPy ≥ 1.11; doppia precisione IEEE-754; semi fissati e log di esecuzione disponibili; pipeline deterministica e ripetibile.
Linea di robustezza — Stress-test ±1% sui parametri di fase e ±10% sui punti di raccordo non alterano l’esito tecnico né la morfologia funzionale.
Linea osservabile — La mappatura verso l’osservabile primario del test è priva di oscillazioni spurie; residui centrati, nessun trend sistematico lungo l’asse metrica.
Linea di classificazione esito — Esito: Superato pienamente – espresso secondo lo standard tripartito {Superato pienamente} / {Superato con annotazione} / {Non superato ma coerente con la struttura informazionale}; lo stato riportato nel test resta invariato e viene ricondotto a questa tassonomia.
Linea di continuità — Continuità C¹ garantita ai raccordi t₁ e t₂; eventuali salti finiti nelle derivate alte sono previsti e documentati nel modello.
Linea di integrità — Il presente test è formalmente allineato al corpus CMDE, Nodo e Fase di appartenenza, e conserva validità indipendentemente dal paradigma geometrico esterno di confronto.

Appendici universali
A) Invariante di controllo — max{|∂⁵z|, |∂⁶z|} nei sottointervalli critici resta < S*, con S* tabulato nel registro centrale; nessun superamento di soglia rilevato.
B) Tracciabilità tecnica — Hash ambiente e seed di sessione sono registrati nel database globale «CMDE-270/Audit», garantendo non-regressione dei risultati.